Search CORE

145 research outputs found

VfrLPL

Author: RAUZY Stéphane
Publication venue: http://lpl-aix.fr
Publication date: 11/05/2007
Field of study

Nous présentons un lexique syntaxique des verbes du français. La ressource contient 8800 entrées environ (soit 6700 verbes distincts), pour lesquels nous produisons les formes conjuguées, leurs formes phonétisées correspondantes ainsi qu'un indice sur leurs fréquences d'usage. Pour chacun des verbes est donné son auxiliaire, son caractère pronominal et les informations caractérisant sa transitivité. Durant la constitution de cette ressource, nous avons apporté un soin particulier à valider les entrées produites en croisant nos résultats avec d'autres ressources de référence.Nous mettons à la disposition de la communauté une version préliminaire du lexique, la ressource électronique VfrLPL1.0.xml, pour laquelle les fréquences d'usage n'ont pas été recalculées.Ce travail s'inscrit dans un programme mené au Laboratoire Parole et Langage depuis quelques années, visant au développement et à la maintenance d'une ressource lexicale fiable et couvrante pour le français

Speech & Language Data Repository (SLDR)

Un point sur les outils du LPL pour l'analyse syntaxique du français

Author: Blache Philippe
Rauzy Stéphane
Publication venue: HAL CCSD
Publication date: 01/10/2009
Field of study

National audienceNous présentons ici les différents modules et ressources développés au Laboratoire Parole et Langage pour l'analyse syntaxique du français. Ces outils sont basés sur des approches symboliques ou stochastiques, selon les caractéristiques de la tâche à effectuer. La chaîne de traitement est composée d'un segmenteur par règles et d'un lexique couvrant du français qui alimentent l'entrée d'un étiqueteur morphosyntaxique probabiliste. Deux analyseurs de surface, l'un symbolique et l'autre stochastique, sont ensuite présentés. Un analyseur stochastique profond, récemment développé, est aussi proposé

HAL AMU

Utilisation des grammaires probabilistes dans les t\^aches de segmentation et d'annotation prosodique

Author: Nesterenko Irina
Rauzy Stéphane
Publication venue
Publication date: 01/06/2008
Field of study

Nous pr\'esentons dans cette contribution une approche \`a la fois symbolique et probabiliste permettant d'extraire l'information sur la segmentation du signal de parole \`a partir d'information prosodique. Nous utilisons pour ce faire des grammaires probabilistes poss\'edant une structure hi\'erarchique minimale. La phase de construction des grammaires ainsi que leur pouvoir de pr\'ediction sont \'evalu\'es qualitativement ainsi que quantitativement. ----- Methodologically oriented, the present work sketches an approach for prosodic information retrieval and speech segmentation, based on both symbolic and probabilistic information. We have recourse to probabilistic grammars, within which we implement a minimal hierarchical structure. Both the stages of probabilistic grammar building and its testing in prediction are explored and quantitatively and qualitatively evaluated

arXiv.org e-Print Archive

HAL AMU

Influence de la qualité de l'étiquetage sur le chunking: une corrélation dépendant de la taille des chunks

Author: Blache Philippe
Rauzy Stéphane
Publication venue: HAL CCSD
Publication date: 01/06/2008
Field of study

International audienceWe show in this paper that a strong correlation exists between the performance of chunk parsers and the quality of the tagging task in input. This dependency becomes linear when the size of the chunks is small. Our demonstration is based on an experiment conducted at the end of the Passage 2007 shared task evaluation initiative (De la Clergerie et al. 2008). The performance of two parsers which took part in this evaluation has been investigated. The results indicate that the chunking task, for sufficiently short chunks, is similar to a super-tagging task.Nous montrons dans cet article qu'il existe une corrélationétroite existant entre la qualité de l'étiquetagemorpho-syntaxique et les performances des chunkers. Cettecorrélation devient linéaire lorsque la taille des chunks estlimitée. Nous appuyons notre démonstration sur la base d'uneexpérimentation conduite suite à la campagne d'évaluationPassage 2007 (De la Clergerie et al. 2008). Nous analysons pourcela les comportements de deux analyseurs ayant participé à cettecampagne. L'interprétation des résultats montre que la tâche dechunking, lorsqu'elle vise des chunks courts, peut être assimiléeà une tâche de ``super-étiquetage'

HAL AMU

Linguistic resources and cognitive aspects in alternative communication

Author: Blache Philippe
Rauzy Stéphane
Publication venue: ISCS
Publication date: 01/01/2003
Field of study

International audienceWe present in this paper an alternative communication system (hereafter ACS) for handicapped persons. The problem consists in helping people to communicate in any situation with any kind of disability, including some kind of cognitive problems as well. Alternative communication primarily relies on an alternative access to the computer by means of various electronic devices (especially in the case of fully paralyzed people). But this also means the necessity of taking into account the communication situation together with the user characteristics.The preliminary question when developing an alternative communication system concerns the specification of user need. Communicating does not only consists in producing a message or a text, eventually synthesized with a text-to-speech system. An ACS also needs to propose different kind of communications, including non-verbal ones.Moreover, such systems have to consider some psychological aspects. In particular in the case of degenerative diseases, new device have to be introduced as new step in the degeneration are crossed. We propose an evolutionary system following users needs and capabilities, avoiding them the feeling of using a new device.Technically, our system relies on a set of sophisticated and original linguistic resources (lexicon and grammars) allowing word access, word prediction and text composition. It also takes into account different kind of communications, from icons to texts via phonemes and morphemes (useful for example in a word completion process). Finally, it proposes the possibility of a multimodal control of the system. This system is currently under evaluation by several users in real-world situation

HAL AMU

Study on the phonetic pitch movement of the accentual phrase in Korean read speech

Author: Cho Hyongsil
Rauzy Stéphane
Publication venue: HAL CCSD
Publication date: 01/05/2008
Field of study

International audienceThe minor prosodic unit in Korean language, generally called Accentual Phrase, is usually defined by its syntactic or phonological cue. This article tries to analyze the correlation between the phonetic pitch movement and the accentual phrase boundary by means of pattern extraction and probabilistic prediction

HAL AMU

Le moteur de prédiction de mots de la Plateforme de Communication Alternative

Author: Blache Philippe
Rauzy Stéphane
Publication venue: ATALA (Association pour le Traitement Automatique des Langues)
Publication date: 01/01/2007
Field of study

International audienceWe present the model of language implemented in the words prediction engine of the "Plateforme de Communication Aternative" (PCA), an assistive communication software designed for impaired persons. The model relies on a large coverage lexicon for french langage which provides for each entry its word frequency and its set of associated morphosyntactic categories. The engine includes a user model (personal lexicon for unknown words typed by the user, computation of personal word frequencies, storage of the generated sentences) and a morphosyntactic prediction system which weight the word frequencies of predicted words according to the syntactical context of the sentence.The evaluation of the model of language is quite encouraging : a keystrokes saving rate of 55 % for 9 propositions. The major contribution comes from the raw prediction obtained by using the words frequencies of the general lexicon.Nous présentons le modèle de langage sous-jacent au moteur de prédiction de mots de la Plateforme de Communication Alternative(PCA), un logiciel d'aide à la communication pour personnes handicapées.Le moteur s'appuie sur un lexique général du français très couvrant qui donne pour chaque entrée la fréquence d'usage du mot et ses traits morphosyntaxiques associés. Il intègre un modèle utilisateur (lexique personnel mémorisant les mots inconnus saisis par l'utilisateur, calcul des fréquences d'usage propres, stockage des phrases produites) et un module de prédiction morphosyntaxique qui pondère les fréquences des mots prédits en fonction du contexte syntaxique de la phrase en cours de composition. L'évaluation du modèle de langage donne des résultats satisfaisants, le taux d'économie de saisies est d'environ 55 % pour une liste de 9 propositions. La contribution dominante provient de la prédiction brute basée sur les fréquences d'usage du lexique général

HAL AMU

Le module de reformulation iconique de la Plateforme de Communication Alternative

Author: Blache Philippe
Rauzy Stéphane
Publication venue: HAL CCSD
Publication date: 12/06/2007
Field of study

International audienceWe present the reformulation system embedded in "Plateforme de Communication Aternative", an assistive communication software destinated to impaired persons. The objective is to transform an input message composed of a sequence of iconic items in a well-formed output sentence, both with regard to syntax and semantics. The constrain is herein twofold. On one hand, the system has to propose a maximal coverage interpretation in the space of reformulated entries. On the other hand, the end user generally non-expert in linguistics may wish to enrich its lexical material by adding new iconic items. The lexicon must then bring minimal linguistic informations accessible to everyone (the end user, its familly or support staff) through a simplified interface. This double constrain governs in practice the choice of the reformulation rules implemented in the system and determines indeed the performances of the reformulation process.Nous présentons dans cette contribution le système de reformulation iconique implanté dans le logiciel d'aide à la communication pour personnes handicapées Plateforme de Communication Alternative (PCA). Il s'agit de générer, à partir d'un message composé d'une séquence d'icônes, une phrase en langage naturel syntaxiquement et sémantiquement correcte. Le module de reformulation de la PCA répond à une double contrainte. Le système doit d'une part proposer une interprétation couvrante, en terme du nombre et du type de messages effectivement reformulés. D'autre part, l'utilisateur généralement non-expert en linguistique doit pouvoir enrichir son matériel lexical par ajout de nouveaux items. Le lexique doit ainsi porter des informations linguistiques minimales accessibles à tous (l'utilisateur, sa famille ou le personnel accompagnant) via une interface simplifiée. Cette double contrainte conditionne en pratique le choix des règles de reformulation implémentées dans le système et les performances du processus de reformulation

HAL AMU

Mécanismes de contrôle pour l'analyse en Grammaires de Propriétés

Author: Blache Philippe
Rauzy Stéphane
Publication venue: P. Mertens, C. Fairon, A. Dister et P. Watrin
Publication date: 01/01/2006
Field of study

International audienceHybrid parsing techniques based both on statistical and symbolicmethods remain rare. In general, they consist in integrating the statistical information into a context-free skeleton, in order to control the selection of rules and structures.We propose in the present paper a statistical method which allows to evaluate a correlation index between two linguistic objects (category, property). We describe how to integrate this statistical information into the framework of Property Grammars. The correlation index is used for controling the selection process of category constituents and the evaluation of properties satisfaction.Les méthodes d'analyse syntaxiques hybrides, reposant à la fois sur des techniques statistiques et symboliques, restent peu exploitées. Dans la plupart des cas, les données statistiques sont intégrées à un squelette context-free et sont utilisées pour contrôler le choix des règles ou des structures. Nous proposons dans cet article une méthode permettant de calculer un indice de corrélation entre deux objets linguistiques (catégories, propriétés). Nous décrivons une utilisation de cette notion dans le cadre l'analyse des Grammaires de Propriétés. L'indice de corrélation nous permet dans ce cas de contrôler à la fois la sélection des constituants d'une catégorie, mais également la satisfaction des propriétés qui la décrivent

HAL AMU

On the use of probabilistic grammars in speech annotation and segmentation tasks

Author: Nesterenko Irina
Rauzy Stéphane
Publication venue: HAL CCSD
Publication date: 01/10/2007
Field of study

International audienceThe present paper explores the issue of corpus prosodic parsing in terms of prosodic words. This question is of importance in both speech processing and corpus annotation studies. We propose a method grounded on both statistical ans symbolic (phonologicial) representations of tonal phenomena and we have recourse to probabilisitic grammars, within which we implement a minimal prosodic hierarchical structure. Both stages of probabilistic grammar building and its testing in prediction are explored and quantitatively and qualitatively evaluated

HAL AMU